1
Giới thiệu về Thị giác Máy tính và Xử lý Ảnh số
ĐH Công nghệ Hồng Kông (PolyU) COMP5511Bài giảng 8
00:00

Giới thiệu về Thị giác Máy tính và Xử lý Ảnh số

Thị giác Máy tính là lĩnh vực trí tuệ nhân tạo giúp máy tính trích xuất thông tin có ý nghĩa từ hình ảnh và video số, một cách hiệu quả nhằm lấp đầy khoảng cách ngữ nghĩa giữa dữ liệu pixel thô và sự hiểu biết ở cấp độ con người.khoảng cách ngữ nghĩa giữa dữ liệu pixel thô và sự hiểu biết ở cấp độ con người.Xử lý Ảnh số đóng vai trò lớp nền cho Thị giác Máy tính, tập trung vào việc thao tác và nâng cao tín hiệu hình ảnh thông qua các phép biến đổi từng điểm ảnh để chuẩn bị dữ liệu cho các nhiệm vụ diễn giải cấp cao hơn.

Các nguyên tắc chính

  • Biểu diễn Dữ liệu: Ở cấp độ máy móc, một hình ảnh là một mảng số liệu tensor chứ không phải một bức tranh toàn diện. Ảnh xám là ma trận hai chiều chứa các giá trị cường độ, trong khi ảnh màu là các tensor ba chiều biểu diễn các kênh Đỏ, Xanh lá và Xanh dương (RGB) với kích thước $H \times W \times 3$.
  • Chuyển đổi so với Diễn giải: Xử lý Ảnh số chủ yếu quan tâm đến các thao tác hình ảnh - hình ảnh như giảm nhiễu, làm sắc nét hoặc cân bằng histogram. Thị giác Máy tính tập trung vào các thao tác hình ảnh - tri thức như phân loại đối tượng, định vị và phân đoạn.
  • Tham chiếu Ngược của Đồ họa: Thị giác Máy tính có thể được xem như nghịch đảo của Đồ họa Máy tính. Trong khi đồ họa cố gắng tạo ra thế giới thị giác từ các mô hình toán học, thị giác lại tìm cách khôi phục cấu trúc 3D và nhãn ngữ nghĩa từ các hình chiếu 2D.
Thách thức Cốt lõi
Thách thức chính trong lĩnh vực này là Khoảng cách Ngữ nghĩa, đó là sự tách biệt giữa các giá trị pixel cấp thấp được máy tính xử lý và các khái niệm cấp cao mà con người nhận thức được.
Triển khai bằng Python
Câu hỏi 1
Quy trình nào được phân loại là thao tác hình ảnh - tri thức?
Xử lý Ảnh số
Thị giác Máy tính
Đồ họa Máy tính
Cân bằng Histogram
Câu hỏi 2
Ở cấp độ máy móc, cấu trúc dữ liệu của một hình ảnh màu tiêu chuẩn là gì?
Ma trận 2D
Mảng 1D
Tensor 3D / Kênh RGB
Danh sách Liên kết
Trường hợp nghiên cứu: Hệ thống chẩn đoán Y tế
Đọc tình huống bên dưới và trả lời các câu hỏi.
Một bệnh viện đang phát triển một hệ thống chẩn đoán y tế tự động mới, được thiết kế để phân tích các ảnh chụp X-quang nhằm phát hiện các tổn thương gãy xương tiềm tàng. Hệ thống xử lý dữ liệu cảm biến thô từ máy chụp X-quang và xuất ra báo cáo chẩn đoán cho bác sĩ chuyên khoa hình ảnh.
Câu
1. Nếu hệ thống áp dụng tăng độ tương phản để làm rõ cấu trúc xương, thì đây là Xử lý Ảnh số (DIP) hay Thị giác Máy tính (CV)?
Câu trả lời:
Xử lý Ảnh số. Tăng độ tương phản là một phép biến đổi hình ảnh - hình ảnh giúp cải thiện chất lượng thị giác của tín hiệu mà không trích xuất ý nghĩa ngữ nghĩa.
Câu
2. Nếu hệ thống tự động đánh dấu một khu vực cụ thể là nghi ngờ gãy xương, thì nó đang thực hiện nhiệm vụ gì?
Câu trả lời:
Thị giác Máy tính / Phát hiện Đối tượng. Hệ thống đang diễn giải nội dung hình ảnh để trích xuất tri thức cấp cao (xác định vị trí gãy xương).
Câu
3. Tại sao việc giảm nhiễu lại cần thiết trước khi chạy thuật toán phát hiện?
Câu trả lời:
Để cải thiện chất lượng tín hiệu và giảm số lượng phát hiện sai trong giai đoạn diễn giải ngữ nghĩa. Nhiễu có thể bị các thuật toán Thị giác Máy tính nhầm lẫn là các đặc trưng hoặc cạnh thực tế.